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Lem 摘要 。 快速 射电 暴 是 目前 国际 天 文学 新 兴 前 沿 热点 ， 随 着 海量 观测 数据 带 来 的 处 理 和 分 析 的 挑战 ， 亟 需 
e 开展 快速 射电 暴 信 和 号 智能 搜寻 和 甄别 的 研究 。 为 了 加 速 快 速射 电 暴 搜寻 研究 ， 我 们 开发 了 一 套 基 于 机 器 学 
习 的 快速 射电 暴 数据 集 ， 它 可 以 训练 机 器 学 习 算 法 以 搜寻 原始 数据 中 的 快速 射电 暴 。 目 前 数据 集 有 8020 
个 快速 射电 暴 仿真 图 像 、4010 个 非 快速 射电 暴 和 4010 个 射频 干扰 仿真 图 像 ， 这 些 图 像 是 根据 开放 的 快速 
射电 暴 观测 结果 构建 的 ， 并 可 根据 需要 扩展 数量 。 本 研究 旨 在 为 最 先进 的 人 工 智能 算法 提供 开源 数据 集 ， 


e 以 测试 和 比较 快速 射电 暴 识别 算法 。 该 数据 集 为 卷 积 神经 网 络 和 经 典 机 器 学 习 算法 提供 图 像 和 numpy 格 
che 式 的 文件 。 数 据 集 可 以 实现 快速 射电 暴 和 非 快速 射电 暴 分 类 ， 或 快速 射电 暴 、 射 频 干扰 和 背景 噪声 分 类 。 
> 在 本 例 中 ， 我 们 使 用 预先 训练 过 的 31 种 经 典 卷 积 神经 网 络 (CNN)。 在 快速 射电 暴 / 非 快速 射电 暴 分 类 中 ， 


在 第 一 个 历 元 训练 中 达到 90-92% 的 准确 率 ， 在 真实 数据 测试 中 达到 99.896 的 最 大 准确 率 。 
关键 词 ”快速 射电 暴 , 机 器 学 习 , 数据 集 
PACS: 47.27.-i, 47.27.Eq, 47.27.Nz, 47.40.Ki, 47.85.Gj 


1 介绍 d fee MS, 


JU BUG BO Do SF ARES APO 都 采用 
快速 射电 暴 (FRB) 是 持续 时 间 为 毫秒 或 更 短 传统 的 消 色 散 算法 进行 盲 搜索 。 尽管 已 经 研发 了 很 


的 明亮 射电 辐射 脉冲 [1,2]. KH 2007 被 发 现 以 来 ， 以 多 优化 算法 Lak 然而 此 类 算法 仍然 有 一 些 缺 点 : 


ASKAP、CHIME 和 FAST 为 代表 的 国内 外 众多 大 量 的 DM 步骤 会 消耗 大 量 的 计算 能 力 ; KEW 


射电 望远镜 取得 了 系列 观测 进展 和 和 突破， 推动 了 这。 UORMRORAILEMAS SERUIMDHUABRATATFUUS 
一 领域 成 为 国际 天 文学 新 兴 前 沿 热 点 。 传 统 的 快速 FASE Ne 

射电 暴 搜寻 使 用 消 色散 方法 ， 首 先 从 望远镜 观测 原 我 们 生成 了 一 套 快速 射电 暴 搜寻 的 机 器 学 习 数 
始 文件 中 读 取 "flterbanky P! 或 者 “Fits” je, — 据 集 , 用 于 在 观测 原始 数据 文件 中 检测 快速 射电 暴 。 
并 去 除 射频 干 护 (RFT) 9， 然 后 需要 搜索 100 到 与 在 候选 体 中 搜寻 1" 的 方法 不 同 ， 直 接 在 观测 
2600 pc cm? 范围 内 的 大 量 色散 度量 (DM) 来 寻 ”的 原始 数据 中 搜索 可 以 节省 大 量 消 色散 的 计算 需求 


和 消除 干扰 信号 的 时 间 ， 以 及 检测 弱 快 速射 电 暴 信 
9) 的 可 能 性 。 此 外 ， 通 过 训练 提高 机 器 学 习 方 
法 的 准确 度 ， 也 可 以 大 幅 减 少 最 终 候选 体 的 数量 。 

为 了 开展 机 器 学 习 搜 寻 快 速射 电 暴 ， 我 们 研发 
T STEP 软件 系统 9? ， 机 器 学 习 的 准确 率 与 训练 集 
有 很 大 关系 , 而 目前 尚 无 快速 射电 暴 的 大 型 数据 集 ， 
本 文 介 绍 了 利用 ASKAP 开放 数据 创建 数据 集 的 方 
法 。 生 成 该 数据 集 的 主要 目的 是 改进 和 优化 在 原始 
数据 中 搜寻 快速 射电 暴 的 模型 。 数 据 集 已 有 上 万 幅 
快速 射电 暴 图 像 , 由 STEP 在 澳大利亚 平方 公里 阵 
列 探 路 者 (ASKAP) P? 公开 的 数据 中 检测 到 的 39 
个 FRB 信号 模拟 产生 。 图 1 显示 了 2 次 FRB 观测 
中 检测 到 的 4 4S FRB 信号 (在 不 同 光束 中 )。 该 数 
据 集 将 公开 发 布 ， 供 FRB 科学 界 使 用 。 


2 数据 集 构建 


构建 的 快速 射电 暴 数据 集 基 于 ASKAP 开放 的 
已 知 快速 射电 暴 样本 ,构建 步骤 是 首先 使 用 传统 
的 消 色散 管线 检测 原始 数据 中 的 所 有 已 知 快速 射电 
暴 。 将 这 些 消 色散 后 的 快速 射电 暴 信号 提取 后 ， 用 
以 模拟 快速 射电 暴 信号 集 。 最 后 通过 随机 选择 原始 
背景 数据 、 快 速射 电 暴 信号 集 和 下 面 介绍 的 方法 和 
参数 选择 ， 就 可 以 构建 面向 原始 数据 的 快速 射电 暴 
数据 集 (参见 图 2)。 


2.1. 快速 射电 暴 观 测 和 搜寻 


ASKAP 的 开放 快速 射电 暴 数据 随 附 于 论 
X PU, ERAT 19 次 快速 射电 暴 观 测 ， 每 个 都 包 
E 36 RGRAY “filterbank” 文件 。 数 据 为 8 比特 , 336 
个 1 MHz 通道 ， 采 样 时 间 为 1.26 毫秒 ， 按 下 边 带 
排序 ， 最 高 频率 为 1488 MHz?. 


S s es an 36 a 3295 秒 数据 


2.2 ”模拟 仿真 快速 射电 暴 信号 


目前 快速 射电 暴 信号 的 特性 还 在 不 断 发 现 和 解 
析 ， 所 以 模拟 仿真 快速 射电 暴 信号 最 佳 的 方法 是 
基于 已 有 的 真实 快速 射电 暴 信和 号 
STEP 搜寻 并 提取 消 色 散 后 的 ; 快速 射电 暴 信号 号 ， 然 
后 通过 下 述 方法 和 参数 仿真 快速 射电 暴 信号 ， 最 后 
将 模拟 仿真 的 快速 射电 暴 信号 注入 真实 的 观测 背景 
数据 就 可 以 生成 数据 集 样本 。 

以 下 是 影响 数据 集 的 几 个 因素 及 创建 数据 集 的 
方法 。 


2.2.1 色散 量 


色散 量 是 快速 射电 暴 的 主要 特性 ， 它 决定 了 最 
高 和 最 低频 率 之 间 的 色散 延迟 时 间 。 目 前 已 知 快速 
射电 暴 的 色散 量 的 范围 是 100 到 2600pc cem [7:3], 
但 是 为 了 搜寻 更 远 的 奇异 快速 射电 暴 ， 搜 寻 的 色 
散 量 范围 越 大 越 好 ， 所 以 最 大 值 可 以 超出 2600pc 
cm^; 最 小 值 100pc cm? 一 般 认 为 是 脉冲 星 或 者 
射频 干扰 信号 的 色散 范围 所 以 维持 不 变 。 在 我 们 的 
模拟 仿真 中 ， 选 择 的 快速 射电 暴 色 散 量 是 从 100pc 
cm-3 到 由 数据 带宽 、 频 率 、 采样 时 间 和 图 像 像素 确 
定 的 最 大 值 之 间 随 机 选择 的 ， 请 参见 下 面 的 4.1 节 。 
色散 量 对 延迟 时 间 是 线性 关系 ， 所 以 对 于 超过 图 像 
最 大 值 对 应 的 色散 量 ， 可 以 通过 对 原始 数据 进行 指 
定 色 散 量 的 预 处 理 来 扩展 对 更 大 色散 量 的 支持 。 比 
如 图 像 最 高 支持 色散 量 400， 超 过 400 的 色散 量 需 
要 对 数据 进行 DM 为 300 的 消 色 散 的 预 处 理 ， 这 
里 100 色散 量 的 差 值 是 因为 色散 量 小 于 100 不 在 搜 


我 们 使 用 STEP 来 搜寻 快速 射电 暴 信和 号。 这 是 
我 们 团队 自 研 的 一 个 基于 GPU 的 开源 工具 包 ， 用 
于 快速 射电 暴 搜寻 和 分 析 。 它 在 中 国 SKA 区 域 中 
心 原型 机 (CSKA-P) P! 上 进行 了 开发 和 测试 , 并 
从 ASKAP 公开 的 快速 射电 暴 数据 中 搜寻 出 了 所 有 


1) https://github.com/Xu-Zhijun/STEP 


寻 范 围 内 。 预 处 理 后 支持 的 最 大 色散 量 提高 到 des 
以 此 类 推 ， 对 于 更 高 色散 量 ， 只 需 对 该 数据 继续 

uu E E 
据 本 地 算 力 和 具体 需求 自 定义 最 小 和 最 大 色散 量 范 
围 。 应 当 注意 的 是 ， 这 种 消 色 散 预 处 理 的 方法 只 适 


2) Shannon, Ryan; Bannister, Keith (2018): Data from the ASKAP latitude 50 Fast Radio Burst (FRB) sample. v3. CSIRO. Data 


Collection. https://doi.org/10.25919/5b6ae6b515850 
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图 1 使 用 STEP 搜寻 到 的 快速 射电 暴 的 样本 图 像 。 图 中 (a). (b). (c) 分 别 是 FRB170416 的 第 15, 16, 21 BOR. AP 


(d) 4 FRB170721 的 第 16 波束 。 在 每 个 子 
频率 相 加 后 的 幅度 分 布 。 


BE 
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图 像 ， 顶 部 是 去 消 


色散 数据 按 


Figure 1 Sample images of FRBs detected by STEP. Panel (a), (b), (c) are FRB170416 beam 15, 16, 21. Panel (d) is FRB170721 
beam 16. In every panel, below is raw data, the middle is dedispersion data, and the top is the sum of the dedispersion data by 


frequency. 


图 2 构建 面向 原始 数据 的 快速 射电 暴 机 器 学 习 数 据 集 的 流程 图 。 首 先 从 观测 数据 中 检测 FRB ， 然 后 提取 FRB 信号 来 构 
££ FRB 数据 集 ， 最 后 采用 随机 DM、 流 量 和 位 置 偏 移 的 随机 FRB 信号 注入 原始 背景 数据 中 。 
Figure 2 Flow chart explaining the processes to build MADFRB. We first detected the FRBs from observation data, and then 
extract the FRB signals to build the FRB dataset. The FRB signals then are randomly selected with random DM, fluence, and 


offset to inject to the raw data. 


用 于 推理 阶段 ， 快 速射 电 暴 数据 集 和 训练 阶段 是 不 
需要 的 ， 这 里 涉及 主要 是 解释 如 何在 实际 观测 数据 
处 理 时 如 何 扩 展 色散 量 范 围 。 


22.2 射频 干扰 信号 


仿真 的 快速 射电 暴 信号 最 后 被 注入 原始 数据 
中 ， 原 始 数据 背景 的 射频 干扰 信号 仍然 会 保留 。 
ASKAP 的 台 址 条 件 非 常 好 , 在 大 多 数 情况 下 , 数据 
中 射频 干扰 信号 很 少见 ， 因 此 需要 手动 注入 的 方式 
模拟 一 些 射频 干扰 信号 ,在 我 们 的 模拟 仿真 中 ,射频 
干扰 信号 被 设置 为 色散 量 为 零 或 者 负数 信号 ， 这 使 
得 机 器 学 习 算 法 只 能 识别 色散 量 为 正 且 大 于 100pc 
cm^ 的 信和 号， 这 个 限制 符合 实际 观测 。 


2.2.9 流量 强度 


观测 发 现 快速 射电 暴 的 能 量 或 流量 变化 很 大 ， 
即使 同一 个 快速 射电 暴 比 如 重复 的 快速 射电 暴 ， 不 
同 脉冲 的 流量 也 不 相同 ， 甚 至 同一 快速 射电 暴 的 同 
一 脉冲 ， 不 同 波束 中 的 流量 也 不 一 样 ( 见 图 1)， 这 
表明 在 适当 范围 内 调整 模拟 仿真 信号 的 流量 强度 不 
仅 可 以 扩充 样本 数 ， 还 可 以 更 接近 真实 情况 。 同 时 
为 了 增强 弱 快 速射 电 暴 信号 的 搜寻 能 力 ， 在 我 们 的 
模拟 仿真 中 ， 随 机 增强 或 者 减弱 信号 流量 ， 流 量 范 
围 从 接近 检测 上 限 到 真实 快速 射电 暴 的 信号 流量 。 


2.3 ”数据 集 统计 信息 


ASKAP 的 FRB 观测 数据 有 36 个 波束 数据 ， 
有 FRB 信号 的 波束 都 是 已 知 的 , 这 样 没 有 FRB 信 
号 的 波束 数据 就 可 以 作为 噪声 背景 来 生成 无 FRB 
的 背景 图 像 ， 同 时 通过 注入 RFI 信号 和 FRB 信和 号 
就 可 以 生成 RFI 和 FRB 图像。 目前 数据 集 总 共有 
16040 个 图 像 ， 包 括 4010 个 原始 数据 (无 FRB). 
RFI, FRB 和 弱 FRB 图 像 (参见 图 3)。 我 们 用 于 
模拟 的 真实 FRB 信号 来 自 FRB170906 的 4 个 波 
R (ILEI fig:FRB170906), 我 们 使 用 的 原始 数据 来 
自 该 观测 2 的 其 他 没有 快速 射电 暴 信号 的 波束 数 
据 ， 这 些 数据 也 用 于 注入 信和 号 以 模拟 FRB 或 RFT。 


3) https://pytorch.org/ 


数据 集 的 数据 格式 包括 图 像 和 NumPy 文件 。 
KRIET AŒ “ps”, “pdf”, “svg”, BRAU F 
也 可 以 是 卷 积 神经 网 络 (CNN) 算法 支持 的 “png” 
格式 。 STEP 支持 Numpy “npy” 格 式 , 或 将 其 转换 
为 其 他 FRB 搜索 管道 支持 的 过 滤器 库 文件 。 它 还 
支持 经 典 机 器 学 习 算 法 (如 向 量 机 、 随 机 森林 等 )。 
因此 ， 我 们 将 有 机 会 使 用 相同 的 数据 集 比 较 CNN、 
经 典 ML 算法 和 传统 FRB 管线 的 性 能 。 


3 试验 


试验 在 中 国 SKA 区 域 中 心 原型 机 上 进行 P9, 
目前 中 国 SKA 区 域 中 心 原型 机 具备 完善 的 软件 
平台 的， 通过 高 速 网 络 传输 SKA 先导 设备 数 
据 29261. 并 开展 了 射电 天 文 管线 的 优化 研究 97:28, 
硬件 设备 拥有 4 个 GPU 节点 ， 共 包括 16 块 英 伟 
达 v100 显卡 和 4 块 A40 显卡 。 本 次 试验 通过 3 个 
GPU 节点 的 16 块 英 伟 达 V100 显卡 训练 完成 。 


3.1 “模型 架构 


我 们 使 用 PyTorch? P9) 及 其 自 带 的 torchvi- 
sion 软件 包 一 起 开发 用 于 测试 快速 射电 暴 数据 集 
的 模型 。torchvision 软件 包 包括 最 新 的 可 访问 数据 
集 、 流 行 的 模型 架构 和 标准 图 像 转换 。 在 PyTorch 
1.6.0 版 本 中 , 模型 软件 包 包 含 以 下 图 像 分 类 算法 以 
及 预 训练 模型 : 


e VGG (vgg11, vgg13, vgg16, vgg19, vggll_bn, 
[30] 


vggl3 bn, vggl6 bn, vggl9 bn) 


e DenseNet (densenet121, densenet169, 
densenet201, densenet161) 9! 
e ResNet  (resnetl8, resnet34, resnet50, 


resnet101, resnet152) B% 


AlexNet B5] 
inception v3 B®] 
GoogLeNet B7] 


mobilenet v2 [B8] 


ResNeXt (resnext5b0 32x4d, resnext101 32x8d) [3] 
Wide ResNet (wide resnet50 2, wide resnet101 2) B4 


图 3 快速 射电 暴 数 据 集中 的 图 像 。(a) 是 没有 FRB 信号 的 原始 数据 ，(b) 是 真实 搜寻 到 的 FRB fi, (c) 是 射频 干扰 


aS, (d) 是 具有 错误 弱 信 号 的 弱 流 量 FRB fit. (e) 是 改正 


Figure 3 Images in the dataset. (a) the raw data without FRBs, (b) FRB with natural energy, (c) RFI, (d) weak FRB with 


wrongly weak signals, and (d) corrected weak FRB. 


图 4 用 


Figure 4 The real FRB signal used for simulation which come from four beams of FRB170906 


él 


F 模 拟 的 真实 FRB 信和 号 来 自 FRB170906 的 4 个 波束 


后 正常 的 弱 流 量 FRB 信和 号 


e ShuffleNet v2 (shufflenet v2 x0 5, shuf- 
flenet v2 x1 0)?! 

e SqueezeNet (squeezenetl 0,squeezenetl 1) 49 

e MNASNet (mnasnet0 5, mnasnetl 0) 


3.2 yl pov 


常规 的 模型 训练 是 用 随机 初始 化 来 训练 整个 网 
络 ， 这 种 方式 耗 时 长 ， 训 练 效 果 也 很 不 稳定 。 本 研 
究 采 用 了 使 用 预 训练 模型 的 方法 。 预 训练 模型 是 在 
一 个 巨大 的 数据 集 7) 上 训练 一 个 网 络 ， 然 后 将 其 
用 作 初 始 化 。 由 于 我 们 的 数据 集 可 能 与 原始 数据 集 
非常 不 同 ， 而 且 我 们 的 数据 集 也 可 能 很 大 ， 因 此 使 
用 预 训练 模型 后 还 需要 通过 训练 对 整个 网 络 进行 微 
调 。 


3.3 ”训练 


我 们 以 8:2 的 比例 将 数据 集 分 成 12832 个 图 像 
训练 集 和 3208 个 验证 集 。 如 上 所 述 , 本 研究 选取 了 
含 预 训练 模型 的 31 种 经 典 CNN 算法 对 数据 集 进 
行 试验 。 由 于 使 用 了 预 训练 模型 ， 在 训练 的 第 一 个 
历 元 ， 大 多 数 网 络 的 准确 率 可 以 达到 9076, yl e 
过 几 次 历 元 后 , 多 数 网 络 的 准确 率 都 超过 了 99.776. 
这 说 明 经 典 CNN 算法 可 以 有 效 提 取 快 速射 电 暴 仿 
真 数据 集 的 图 像 特征 ， 并 通过 多 次 迭代 训练 提高 准 
确 率 。 为 了 更 好 的 研究 不 同 CNN 模型 的 分 类 效果 ， 
我 们 还 计算 了 召回 率 (Recall), HM (Precision) 
和 Fl1， 其 中 召回 率 反 应 了 模型 识别 正 样本 的 能 力 ， 
精确 率 反 应 了 出 现 假 阳性 的 概率 ， 而 Fl 反应 了 召 
回 率 和 精确 率 在 综合 数值 .从 表 2 中 可 以 看 到 有 大 多 
数 模 型 的 召回 率 、 精 确 率 和 了 1 都 在 99 以 上 ,表明 
我 们 的 快速 射电 暴 仿真 数据 集 非常 适合 经 典 CNN 
类 的 算法 。 


3.4 测试 数据 集 

为 了 验证 基于 快速 射电 暴 仿真 数 据 集训 练 后 的 
CNN 模型 对 于 真实 数据 的 分 类 效果 ， 我 们 生成 了 
16544 张 所 有 ASKAP 公开 的 快速 射电 暴 观 测 的 真 
K FRB 信号 图 像 作为 测试 数据 集 , 包括 35 张 包含 


快速 射电 暴 信 号 的 图 像 ， 其 他 图 像 作为 非 快 速射 电 
RAK. 该 数据 截取 了 包含 快速 射电 暴 信号 的 约 10 
秒 原始 数据 ， 符 合 真实 观测 时 的 连续 处 理 或 者 处 理 
暂 现 源 终 端 记 录 的 候选 体 的 缓存 数据 段 。 从 表 2 中 
可 以 看 到 大 多 数 网 络 的 准确 率 可 以 达到 99%, mH. 
层 数 更 深 的 网 络 一 般 有 更 高 的 分 类 准确 率 。 在 实际 
应 用 中 ， 为 了 尽 可 能 减少 错过 正 样本 也 就 是 快速 射 
电 暴 信号 , 需要 召回 率 尽量 高 。 从 表 2 中 可 以 看 到 有 
3 个 模型 的 召回 率 都 达到 了 100% , 表示 所 有 的 快速 
射电 暴 信号 都 找到 了 。 召 回 率 100% 的 原因 是 正 样 
本 的 快速 射电 暴 信 号 在 真实 数据 中 占 比 非常 小 ， 所 
以 在 正 样 本 有 限 情况 下 召回 率 结果 不 一 定 精确 ， 这 
也 说 明了 真实 场景 下 提高 召回 率 的 重要 性 。 表 2 中 ， 
召回 率 10096 情况 下 , 精确 率 最 高 只 有 99.321%, 说 
明 有 一 定 几率 出 现 假 阳性 候选 体 ， 需 要 一 定 的 后 续 
人 工 审查 。 


4 讨论 
41 真实 数据 的 图 像 大 小 和 信号 位 置 


快速 射电 暴 数据 集 的 首要 限制 就 是 图 像 的 大 
小 。 卷 积 神经 网 络 算法 通常 先 将 图 像 统一 为 固定 大 
小 ， 通 常 为 等 长 的 正方 形 图 像 。 但 在 真实 快速 射电 
暴 数据 中 ， 图 像 的 高 度 由 数据 的 通道 数 来 定义 ， 宽 
度 由 样本 时 间 长 度 定义 。 观 测 中 的 通道 数 通 常 是 固 
定 的 ， 因 此 对 于 真实 数据 我 们 需要 选择 与 通道 数 等 
长 的 时 间 样 本 来 获得 等 长 图 像 。 

目前 数据 集 的 生成 算法 中 ， 我 们 默认 快速 射电 
暴 的 所 有 频段 信号 都 在 同一 张 图 内 。 在 处 理 真 实 快 
速射 电 暴 数据 时 ， 为 了 保证 这 一 点 ， 需 要 对 信号 位 
置 和 色散 量 都 有 限制 . 对 于 未 知 的 快速 射电 暴 信号 ， 
为 满足 信号 的 位 置 限制 ， 我 们 使 用 了 设置 重 倒 区域 
的 方法 。 目 前 我 们 对 ASKAP 数据 设置 了 50% 3 
从， 比如 单 张 图 片 包 括 时 间 长 度 为 1 的话， 每 个 
片 每 经 过 0.5 就 自动 生成 一 张 图 片 。 通 过 计算 ， 
样 可 以 保证 在 一 定 色 散 范围 内 所 有 频段 信号 都 在 
张 图 片 内 。 

对 于 色散 量 限 制 ， 正 如 我 们 在 2.2.1 节 中 提 到 
的 ， 色 散 量 与 延迟 成 正比 ， 因 此 色散 量 的 最 大 值 也 


ap 
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表 1 31 种 经 典 CNN 模型 的 验证 集结 果 


Table 1 31 classic CNN models with their respective validation result (Val Acc) 


模型 验证 集 准确 率 (76) ”精确 率 (70) AMR (%) — Fl 
resnet18 99.87 99.913 99.957 99.935 
resnet34 99.731 99.896 99.835 99.865 
resnet50 99.835 99.896 99.939 99.918 
resnet101 98.986 99.904 99.079 99.49 
resnet152 96.75 99.901 96.838 98.346 
vggll 99.818 99.913 99.904 99.909 
vggl3 99.766 99.93 99.835 99.883 
vggl6 99.783 99.904 99.878 99.891 
vggl9 99.887 99.905 99.983 99.944 
vggll bn 99.61 99.904 99.705 99.804 
vggl3 bn 99.853 99.887 99.965 99.926 
vggl6 bn 99.558 99.904 99.653 99.778 
vggl9 bn 99.801 99.922 99.878 99.9 
inception v3 99.861 99.939 99.922 99.931 
densenet121 99.827 99.948 99.878 99.913 
densenet161 99.783 99.904 99.878 99.891 
densenet169 99.879 99.939 99.939 99.939 
densenet201 99.775 99.957 99.818 99.887 
resnext5O0 32x4d 99.792 99.93 99.861 99.896 
resnextl01 32x8d 98.726 99.93 98.793 99.358 
wide_resnet50_2 98.891 99.895 98.992 99.441 
wide_resnet101_ 2 99.827 99.939 99.887 99.913 
googlenet 99.818 99.93 99.887 99.909 
mobilenet v2 99.792 99.913 99.878 99.896 
alexnet 99.827 99.922 99.904 99.913 
squeezenetl 0 99.567 99.913 99.653 99.783 
squeezenetl 1 98.977 99.93 99.045 99.485 
mnasnetl 0 99.879 99.887 99.991 99.939 
mnasnet0_5 99.307 99.774 99.531 99.652 
shufflenet v2 x0 5 99.766 99.904 99.861 99.883 
shuffleenet v2 x1 O0 99.567 99.913 99.653 99.783 
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表 2 31 种 经 典 CNN 模型 的 测试 集结 果 


Table 2 31 classic CNN models with their respective test set result 


模型 测试 集 准确 率 (70) ”精确 率 (70) ”召回 率 (%) F1 
resnet18 99.127 98.344 99.938 99.134 
resnet34 99.608 99.226 99.991 99.607 
resnet50 98.896 97.862 99.982 98.911 
resnet101 99.791 99.618 99.964 99.791 
resnet152 99.194 98.901 99.492 99.196 
vggll 99.506 99.123 99.893 99.506 
vgg13 99.581 99.247 99.92 99.582 
vggl6 99.43 98.88 99.991 99.432 
vggl9 97.885 95.952 100 97.934 
vggll bn 99.6577 99.321 100 99.659 
vggl3 bn 98.642 97.398 99.946 98.656 
vggl6 bn 99.657 99.317 100 99.657 
vggl9 bn 99.069 98.206 99.982 99.086 
inception v3 97.217 94.951 99.761 97.297 
densenet121 99.884 99.857 99.911 99.884 
densenet161 99.813 99.665 99.965 99.814 
densenet 169 99.884 99.839 99.929 99.884 
densenet201 99.817 99.731 99.901 99.816 
resnext5O0 32x4d 99.532 99.133 99.938 99.534 
resnextl01 32x8d 98.753 99.403 98.091 98.743 
wide_resnet50_ 2 99.1 98.3 99.919 99.103 
wide_resnet101_ 2 99.706 99.45 99.964 99.707 
googlenet 99.181 98.476 99.902 99.184 
mobilenet v2 99.693 99.441 99.946 99.693 
alexnet 93.886 89.437 99.519 94.209 
squeezenetl 0 99.212 98.814 99.616 99.213 
squeezenetl 1 99.221 98.769 99.689 99.227 
mnasnetl 0 96.277 93.201 99.876 96.423 
Inasnet0 5 50.109 50.076 99.822 66.694 
shufflenet v2 x0_5 92.95 88.43 98.891 93.369 
shufflenet_v2_xl_0 95.827 93.56 98.39 95.914 


f=, 


限制 在 给 定时 间 长 度 的 样本 中 。 这 个 问题 可 以 通过 
对 数据 在 时 域 进行 下 采样 来 解决 ， 但 会 带 来 灵敏 度 
降低 的 风险 。 为 了 解决 这 个 问题 ， 我 们 采用 了 对 高 
色散 量 信号 进行 预先 消 色 散 的 解决 方法 。 

目前 ASKAP 数据 中 我 们 设置 了 400pc cm 
的 预 消 色 散步 又 ， 比 如 对 于 搜索 范围 2000pc cm”, 
需要 设置 5 个 并 行 搜寻 管线 , 分 别 对 应 不 进行 预 消 
色散 和 预 消 色 散 400、800、1200、1600pc cm?, 3X 
样 对 于 每 个 搜寻 管线 ， 只 需要 搜寻 400pc cm ”以 
内 ， 所 有 信号 都 在 单 张 图 片 的 情况 ， 有 效 提高 搜索 
准确 率 。 当 然 为 了 彻底 解决 限制 问题 ， 有 必要 解除 
快速 射电 暴 所 有 信和 号 都 在 单 张 图 像 中 的 限制 ， 但 这 
将 带 来 其 他 问题 ， 需 要 在 后 续 研 究 中 解决 。 


42 能 快速 射电 暴 信号 


该 问题 来 源 于 本 研究 初期 在 进行 随机 流量 强度 
变换 时 的 错误 。 为 了 注入 随机 流量 强度 的 快速 射电 
暴 信号 ， 我 们 初期 通过 随机 选择 的 流量 强度 因子 对 
言 号 的 所 有 频率 流量 同时 进行 增强 或 削弱 。。 检查 生 


5 未 来 工作 


数据 集 只 是 快速 射电 暴 搜寻 的 第 一 步 ， 未 来 还 
有 很 多 工作 需要 继续 。 比 如 引入 不 同 望远镜 的 观 
测 和 射频 干扰 数据 以 提高 适应 性 。 针 对 平方 公里 阵 
列 第 一 期 的 快速 射电 暴 研究 ， 可 以 利用 在 SKA 低 
频 站 址 的 SKA 先导 设备 MWA 数据 ， 进 行 SKA 
低频 快速 射电 暴 仿真 数据 集 研究 。 同 样 可 以 利用 
MeerKAT 数据 ， 研 究 SKA 中 频 快速 射电 暴 仿真 
数据 集 。 马 外 快速 射电 暴 的 能 量 强度 在 不 同 频率 会 
有 一 定 随 机 性 ， 不 同 数据 格式 的 量化 效果 等 还 需要 
根据 不 同 观测 数据 进行 具体 研究 。 目 前 快速 射电 暴 
搜寻 管线 研发 的 主要 困难 之 一 就 是 缺乏 统一 的 比较 
手段 。 基 于 已 有 快速 射电 暴 仿真 数据 集 ， 进 一 步 可 
以 开展 快速 射电 暴 搜寻 管线 的 比较 和 优化 。 可 以 有 
效 量化 管线 性 能 ， 为 快速 射电 暴 搜寻 管线 研发 、 测 
试 和 优化 提供 统一 标准 。 


6 结论 


为 了 加 速 快速 射电 暴 搜寻 管线 研究 ， 我 们 开发 


成 的 图 像 后 ， 我 们 发 现 一 些 在 真实 数据 中 不 会 出 现 
的 “奇异 的 弱 线 ”( 参 见 图 3)。 这 个 问题 的 原因 是 快 
速射 电 暴 信号 在 不 同 频率 上 流量 强度 表现 不 同 ， 对 
信号 进行 随机 流量 强度 变换 时 ， 原 先 流量 强度 较 低 
的 频率 就 可 能 发 生 信 号 比 背 景 的 流量 强度 还 弱 的 现 
f, 造成 了 “奇异 的 弱 线 ”。 为 了 解决 这 个 问题 , 我 
们 在 仿真 中 对 注入 的 快速 射电 其 信号 进行 检查 ， 并 
将 信号 中 的 低 于 同 频率 背景 强度 的 部 分 替换 为 背景 
噪声 ， 这 样 仿真 图 像 就 更 符合 真实 数据 的 情况 。 


c 


4.3 ”快速 射电 暴 宽度 


快速 射电 暴 信号 的 宽度 决定 了 需要 从 观测 数据 
中 提取 多 少 真 实 FRB 信号 样本 。FRB 的 最 大 和 最 
小 宽度 仍 不 确定 ， 因 此 必须 手动 提取 真实 的 FRB 
Ao. FAH, RP PRB 的 宽度 可 以 设置 为 随机 
选择 ， 但 在 我 们 的 模拟 中 ， 它 默认 设置 为 不 变 。 


了 一 套 基于 机 器 学 习 的 快速 射电 暴 数据 集 ， 它 可 以 
训练 机 器 学 习 算法 以 搜寻 原始 数据 中 的 快速 射电 
暴 。 同 时 数据 集 也 可 以 作为 传统 快速 射电 暴 管线 的 
性 能 量化 标准 。 数 据 集 目前 已 有 8020 个 快速 射电 
暴 、4010 个 非 快 速射 电 暴 和 4010 个 射频 干扰 图 
像 ， 这 些 图 像 是 根据 公开 的 快速 射电 暴 观测 结果 构 
建 的 。 我 们 为 最 先进 的 人 工 智能 算法 提供 开源 数据 
集 ， 以 比较 快速 射电 暴 识别 算法 。 该 数据 集 为 卷 积 
神经 网 络 和 经 典 机 器 学 习 算 法 提供 图 像 和 numpy 
格式 的 文件 。 数 据 集 可 以 实现 快速 射电 暴 / 非 快速 
射电 暴 分 类 ， 或 快速 射电 暴 / 射 频 干 扰 / 背 景 噪声 分 
类 ,目前 图 像 结果 已 经 开源 ,下 一 步 测试 完成 后 , 仿 
真 的 工具 包 也 会 开源 ， 满 足 特定 望远镜 观测 数据 搜 


寻 的 需求 。 
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A machine learning dataset for FRB detection in raw data 
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1. SKA Regional Centre Joint Lab, Shanghai Astronomical Observatory, Chinese Academy of Sciences, Shanghai 200030, 
China; 
2. SKA Regional Centre Joint Lab, Peng Cheng Lab, Shenzhen, 518066, China 


We introduce a machine learning FRB dataset that can train the ML algorithms to reach the FRBs in raw 
data. It has 8020 FRB simulation images, 4010 non-FRB and 4010 RFI simulation images built from the 
public FRB observations, and can be expanded in any number as needed. This work provides an open-source 
dataset for state of art AI to the comparison of FRB event recognition algorithms. The dataset provides image 
and NumPy format files for both convolutional neural networks and classic machine learning algorithms. The 
dataset can implement FRB/non-FRB classification, or FRB/RFI/Blank classification. In the example, we 
used 31 pre-trained classic CNNs. In FRB/non-FRB classification, it achieves the accuracy of 90-92% in the 
first training epoch and max accuracy of 99.8% in real FRB dataset testing. 


FRB, Machine Learning, Dataset 
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